Many state-of-the-art deep learning models for computer vision tasks are based on the transformer architecture. Such models can be computationally expensive and are typically statically set to meet the deployment scenario. However, in real-time applications, the resources available for every inference can vary considerably and be smaller than what state-of-the-art models use. We can use dynamic models to adapt the model execution to meet real-time application resource constraints. While prior dynamic work has primarily minimized resource utilization for less complex input images while maintaining accuracy and focused on CNNs and early transformer models such as BERT, we adapt vision transformers to meet system dynamic resource constraints, independent of the input image. We find that unlike early transformer models, recent state-of-the-art vision transformers heavily rely on convolution layers. We show that pretrained models are fairly resilient to skipping computation in the convolution and self-attention layers, enabling us to create a low-overhead system for dynamic real-time inference without additional training. Finally, we create a optimized accelerator for these dynamic vision transformers in a 5nm technology. The PE array occupies 2.26mm$^2$ and is 17 times faster than a NVIDIA TITAN V GPU for state-of-the-art transformer-based models for semantic segmentation.
translated by 谷歌翻译
数据剪辑对于降低量化操作中的噪声和提高量化感知训练(QAT)的准确性至关重要。当前的实践依靠启发式方法来设置剪接阈值标量,不能证明是最佳的。我们提出了最佳的剪切张量和向量(octav),这是一种递归算法,以确定MSE最佳的剪切标量。 OCTAV源自Fast Newton-Raphson方法,在QAT例程的每一个迭代中,都可以随时发现最佳的剪切标量。因此,QAT算法在每个步骤中都具有可证明的最小量化噪声配制。此外,我们揭示了QAT中常见梯度估计技术的局限性,并提出了幅度感知的分化,以进一步提高准确性。在实验上,启用了八度的QAT在多个任务上实现了最先进的精度。其中包括在ImageNet上进行训练,并在ImageNet上进行重新注册和Mobilenets,以及使用BERT模型进行微调,其中启用八叶速度的QAT始终以低精度(4到6位)保持准确性。我们的结果不需要对基线训练配方进行任何修改,除了在适当的情况下插入量化操作。
translated by 谷歌翻译
代表低精度的深度神经网络(DNN)是一种有希望的方法来实现有效的加速和记忆力。以前的方法在低精度中培训DNN的方法通常在重量更新期间在高精度中保持重量的重量副本。由于低精度数字系统与学习算法之间的复杂相互作用,直接具有低精度重量的培训导致精度下降。为了解决这个问题,我们开发了一个共同设计的低精度训练框架,被称为LNS-MADAM,我们共同设计了对数号系统(LNS)和乘法权重算法(MADAM)。我们证明了LNS-MADAM在重量更新期间导致低量化误差,即使精度有限,也导致稳定的收敛。我们进一步提出了LNS-MADAM的硬件设计,可以解决实现LNS计算的有效数据路径的实际挑战。我们的实现有效地降低了LNS - 整数转换和部分总和累积所产生的能量开销。实验结果表明,LNS-MADAM为全精密对应物达到了可比的准确性,只有8位对流行的计算机视觉和自然语言任务。与全精密浮点实施相比,LNS-MADAM将能耗降低超过90。
translated by 谷歌翻译
子图相似度搜索是图形分析中的基本操作员。在此框架中,给定查询图和图形数据库,目标是识别结构图的数据库图的子图,这些图是与查询相似的。子图编辑距离(SED)是子图相似度最有表现力的措施之一。在这项工作中,我们研究了从训练的图形对和他们的SED值训练SED的问题。为此,我们设计了一种名为Neurosed的新型暹罗图形神经网络,其学习嵌入空间,具有丰富的结构,让人想起SED。借助专门制作的归纳偏差,不仅可以实现高精度,而且确保预测的SED,如真正的SED,满足三角不等式。设计足够通用,也可以模拟图表编辑距离(GED),同时确保预测的GED空间是指标,如真正的GED空间。对于SED和GED的真实图数据集进行了广泛的实验,建立了神经传播的RMSE比现有技术的约2倍,并且比最快的基线快约18倍。此外,由于其对独立的嵌入和理论性质,神经翻转允许大约3个峰值检索图形和子图。
translated by 谷歌翻译
中风康复旨在通过功能运动的重复实践来增加神经塑性,但由于重复不足,对恢复可能具有最小的影响。最佳培训内容和数量目前未知,因为不存在测量它们的实用工具。在这里,我们呈现Primseq,一个管道来分类和计算在笔划康复中培训的功能动作。我们的方法集成了可穿戴传感器来捕获上体运动,深度学习模型来预测运动序列,以及对Tally Motions的算法。训练有素的模型将康复活动分解成组件功能运动,优于竞争性机器学习方法。 Primseq进一步在人类专家的时间和劳动力成本的一小部分中量化了这些动作。我们展示了以前看不见的中风患者的Primseq的能力,这是一系列上肢电机损伤。我们预计这些进步将支持在中风康复中定量给药试验所需的严格测量。
translated by 谷歌翻译
从视频和动态数据自动活动识别是一种重要的机器学习问题,其应用范围从机器人到智能健康。大多数现有的作品集中在确定粗动作,如跑步,登山,或切割植物,其具有相对长的持续时间。这对于那些需要细微动作中的高时间分辨率识别应用的一个重要限制。例如,在中风恢复,定量康复剂量需要区分具有亚秒持续时间的运动。我们的目标是弥合这一差距。为此,我们引入了一个大规模,多数据集,StrokeRehab,为包括标记高时间分辨率微妙的短期操作的新动作识别基准。这些短期的行为被称为功能性原语和由河段,运输,重新定位,稳定作用,和空转的。所述数据集由高品质的惯性测量单元的传感器和执行的日常生活像馈送,刷牙等的活动41中风影响的病人的视频数据的,我们表明,基于分割产生嘈杂状态的最先进的现有机型预测时,对这些数据,这往往会导致行动超量。为了解决这个问题,我们提出了高分辨率的活动识别,通过语音识别技术的启发,它是基于一个序列到序列模型,直接预测的动作序列的新方法。这种方法优于国家的最先进的电流在StrokeRehab数据集的方法,以及对标准的基准数据集50Salads,早餐,和拼图。
translated by 谷歌翻译